物体检测是计算机视觉系统中的一项关键任务,广泛应用于自动驾驶、医学成像、零售、安全、人脸识别、机器人等领域。如今,基于神经网络的模型用于定位和分类特定类别的物体实例。当不需要实时推理时,模型集成有助于获得更好的结果。在这项工作中,我们提出了一种组合物体检测模型预测的新方法:加权框融合。我们的算法利用所有提出的边界框的置信度得分来构建平均框。我们在多个数据集上测试了该方法,并在 Open Images 和 COCO 物体检测赛道的背景下对其进行了评估,在这些挑战中取得了最高成绩。Waymo Open Dataset 和 Lyft 自动驾驶汽车 3D 物体检测挑战赛的获胜团队成功应用了 3D 版本的框融合。源代码可在 https://github.com/ZFTurbo/Weighted-Boxes-Fusion 上公开获取。
![arXiv:1910.13302v2 [cs.CV] 2020 年 8 月 14 日PDF文件第1页](/bimg/d/dd7e81d930119c0edd4e4910d1eac06dead20921.webp)
![arXiv:1910.13302v2 [cs.CV] 2020 年 8 月 14 日PDF文件第2页](/bimg/9/9b252124ac9befba337c20ae7933174d3b89e661.webp)
![arXiv:1910.13302v2 [cs.CV] 2020 年 8 月 14 日PDF文件第3页](/bimg/8/89dd4c5bd887e72b7088c6c355ac53674c61c1f2.webp)
![arXiv:1910.13302v2 [cs.CV] 2020 年 8 月 14 日PDF文件第4页](/bimg/7/728e1a87cd79cf4cc354b599c44f70bf55f697cd.webp)
![arXiv:1910.13302v2 [cs.CV] 2020 年 8 月 14 日PDF文件第5页](/bimg/2/2442247f25eae133cd608dc98e4216ae7d58b262.webp)
